Loading...
机构名称:
¥ 1.0

大型语言模型 (LLM) 因其强大的功能和对世界的广博知识而对社会产生了巨大影响。人们已经创建了各种应用程序和工具,允许用户在黑盒场景中与这些模型进行交互。但是,这种情况的一个限制是用户无法修改模型的内部知识,而添加或修改内部知识的唯一方法是在当前交互期间向模型明确提及它。这种学习过程称为上下文训练,它指的是局限于用户当前会话或上下文的训练。上下文学习具有重要的应用,但也有很少被研究的局限性。在本文中,我们进行了一项研究,展示了模型如何受到上下文中不断流动的信息之间的干扰,导致其忘记以前学到的知识,从而降低模型的性能。除了展示问题之外,我们还提出了基于 bAbI 数据集的评估基准。

arXiv:2309.12727v1 [cs.AI] 2023 年 9 月 22 日

arXiv:2309.12727v1 [cs.AI] 2023 年 9 月 22 日PDF文件第1页

arXiv:2309.12727v1 [cs.AI] 2023 年 9 月 22 日PDF文件第2页

arXiv:2309.12727v1 [cs.AI] 2023 年 9 月 22 日PDF文件第3页

arXiv:2309.12727v1 [cs.AI] 2023 年 9 月 22 日PDF文件第4页

arXiv:2309.12727v1 [cs.AI] 2023 年 9 月 22 日PDF文件第5页